Deep neural networks (DNNs) recently emerged as a promising tool for analyzing and solving complex differential equations arising in science and engineering applications. Alternative to traditional numerical schemes, learning-based solvers utilize the representation power of DNNs to approximate the input-output relations in an automated manner. However, the lack of physics-in-the-loop often makes it difficult to construct a neural network solver that simultaneously achieves high accuracy, low computational burden, and interpretability. In this work, focusing on a class of evolutionary PDEs characterized by having decomposable operators, we show that the classical ``operator splitting'' numerical scheme of solving these equations can be exploited to design neural network architectures. This gives rise to a learning-based PDE solver, which we name Deep Operator-Splitting Network (DOSnet). Such non-black-box network design is constructed from the physical rules and operators governing the underlying dynamics contains learnable parameters, and is thus more flexible than the standard operator splitting scheme. Once trained, it enables the fast solution of the same type of PDEs. To validate the special structure inside DOSnet, we take the linear PDEs as the benchmark and give the mathematical explanation for the weight behavior. Furthermore, to demonstrate the advantages of our new AI-enhanced PDE solver, we train and validate it on several types of operator-decomposable differential equations. We also apply DOSnet to nonlinear Schr\"odinger equations (NLSE) which have important applications in the signal processing for modern optical fiber transmission systems, and experimental results show that our model has better accuracy and lower computational complexity than numerical schemes and the baseline DNNs.
translated by 谷歌翻译
代码生成旨在从自然语言描述中自动生成代码段。通常,主流代码生成方法依赖大量的配对培训数据,包括自然语言描述和代码。但是,在某些特定领域的情况下,很难为代码生成建立如此大的配对语料库,因为没有直接可用的配对数据,并且需要大量精力来手动编写代码说明来构建高质量的培训数据集。由于培训数据有限,生成模型不能经过良好的训练,并且可能过于拟合,从而使该模型对现实世界的使用不满意。为此,在本文中,我们提出了一种任务增强方法,该方法通过扩展原始的Tranx模型来支持suptoken级代码生成,将域知识通过辅助任务和亚键入tranx模型纳入代码生成模型。为了验证我们提出的方法,我们收集了一个真实的代码生成数据集并在其上进行实验。我们的实验结果表明,亚句级Tranx模型在我们的数据集中优于原始Tranx模型和变压器模型,并且在我们的任务增强方法的帮助下,Subtoken-Tranx的确切匹配精度可显着提高12.75 \%。多个代码类别的模型性能满足了工业系统应用程序的要求。我们提出的方法已由阿里巴巴的\ emph {bizcook}平台采用。据我们所知,这是在工业开发环境中采用的第一个领域代码生成系统。
translated by 谷歌翻译
3D重建基于少数学习的新型类别在现实世界中具有吸引力,并吸引了不断增长的研究兴趣。先前的方法主要集中于如何为不同类别设计形状的先验模型。他们在看不见的类别上的表现不是很具竞争力。在本文中,我们提出了一个内存的先验对比网络(MPCN),该网络可以在基于几次学习的3D重建框架中存储形状的先验知识。借助形状记忆,提出了一个多头注意模块以捕获候选形状的不同部分,并将这些部分融合在一起,以指导新型类别的3D重建。此外,我们引入了一种3D吸引的对比学习方法,该方法不仅可以补充内存网络的检索准确性,而且还可以更好地组织下游任务的图像功能。与以前的几次3D重建方法相比,MPCN可以处理类间变异性而无需类别注释。基准合成数据集和Pascal3D+现实世界数据集的实验结果表明,我们的模型的表现明显优于当前的最新方法。
translated by 谷歌翻译
我们提出了Tacobot,这是为首届Alexa Prive Taskbot Challenge构建的面向任务的对话系统,该系统可帮助用户完成多步骤烹饪和家庭装修任务。Tacobot的设计采用以用户为中心的原则,并渴望提供协作且易于访问的对话体验。为此,它具有准确的语言理解,灵活的对话管理和引人入胜的响应生成。此外,Tacobot还以强大的搜索引擎和自动化的端到端测试套件为支持。在引导Tacobot的开发中,我们探索了一系列数据增强策略,以训练先进的神经语言处理模型,并通过收集的真实对话不断改善对话经验。在半决赛结束时,Tacobot的平均评分为3.55/5.0。
translated by 谷歌翻译
在本文中,我们旨在设计一种能够共同执行艺术,照片现实和视频风格转移的通用风格的转移方法,而无需在培训期间看到视频。以前的单帧方法对整个图像进行了强大的限制,以维持时间一致性,在许多情况下可能会违反。取而代之的是,我们做出了一个温和而合理的假设,即全球不一致是由局部不一致所支配的,并设计了应用于本地斑块的一般对比度连贯性损失(CCPL)。 CCPL可以在样式传输过程中保留内容源的连贯性,而不会降低样式化。此外,它拥有一种邻居调节机制,从而大大减少了局部扭曲和大量视觉质量的改善。除了其在多功能风格转移方面的出色性能外,它还可以轻松地扩展到其他任务,例如图像到图像翻译。此外,为了更好地融合内容和样式功能,我们提出了简单的协方差转换(SCT),以有效地将内容功能的二阶统计数据与样式功能保持一致。实验证明了使用CCPL武装时,所得模型对于多功能风格转移的有效性。
translated by 谷歌翻译
本文介绍了我们DFGC 2022竞赛的摘要报告。深层味道正在迅速发展,现实的面部折叠变得越来越欺骗性和难以检测。相反,检测深击的方法也正在改善。 Deepfake创作者和防守者之间有两党的比赛。这项竞赛提供了一个通用平台,用于基准在DeepFake创建和检测方法中当前最新的游戏之间的游戏。这场比赛要回答的主要研究问题是彼此竞争时两个对手的现状。这是去年DFGC 2021之后的第二版,具有新的,更多样化的视频数据集,更现实的游戏设置以及更合理的评估指标。通过这项竞争,我们旨在激发研究思想,以建立对深层威胁的更好的防御能力。我们还发布了我们的参与者和我们自己的DFGC 2022数据集,以丰富研究社区的DeepFake数据资源(https://github.com/nice-x/dfgc-2022)。
translated by 谷歌翻译
人类的行动识别是一个非常受过大量研究的领域,在该领域中,最引人注目的动作识别网络通常使用日常人类行动的大规模粗粒度动作数据集作为陈述其网络优势的输入。我们打算使用神经网络识别我们的小规模细粒Tai Chi动作数据集,并使用NTU RGB+D数据集提出一种转移学习方法,以预先培训我们的网络。更具体地说,提出的方法首先使用大规模的NTU RGB+D数据集来预先培训基于变压器的网络以进行动作识别,以在人类运动中提取共同的特征。然后,我们冻结除完全连接(FC)层以外的网络权重,并将我们的Tai Chi动作作为输入,仅用于训练初始化的FC权重。实验结果表明,我们的通用模型管道可以达到高度精细的Tai Chi Action识别的高精度,甚至很少输入,并证明我们的方法与先前的Tai Chi Action识别相比实现了最先进的性能方法。
translated by 谷歌翻译
大肠息肉分类是一项关键的临床检查。为了提高分类精度,大多数计算机辅助诊断算法通过采用窄带成像(NBI)识别结直肠息肉。但是,NBI通常在实际诊所场景中缺少利用率,因为该特定图像的获取需要在使用白光(WL)图像检测到息肉时手动切换光模式。为了避免上述情况,我们提出了一种新的方法,可以通过进行结构化的跨模式表示一致性直接实现准确的白光结肠镜图像分类。实际上,一对多模式图像,即NBI和WL,被送入共享变压器中以提取分层特征表示。然后,采用了一种新颖的设计空间注意模块(SAM)来计算从多层次的类令牌和贴片令牌%的相似性,以获得特定模态图像。通过将配对NBI和WL图像的类令牌和空间注意图对齐,变压器可以使上述两种模式保持全局和局部表示一致性。广泛的实验结果说明了所提出的方法的表现优于最近的研究,从而通过单个变压器实现了多模式预测,同时仅在使用WL图像时大大提高了分类精度。
translated by 谷歌翻译
集成多模式数据以改善医学图像分析,最近受到了极大的关注。但是,由于模态差异,如何使用单个模型来处理来自多种模式的数据仍然是一个开放的问题。在本文中,我们提出了一种新的方案,以实现未配对多模式医学图像的更好的像素级分割。与以前采用模式特异性和模态共享模块的以前方法不同,以适应不同方式的外观差异,同时提取共同的语义信息,我们的方法基于具有精心设计的外部注意模块(EAM)的单个变压器来学习在训练阶段,结构化的语义一致性(即语义类表示及其相关性)。在实践中,可以通过分别在模态级别和图像级别实施一致性正则化来逐步实现上述结构化语义一致性。采用了提出的EAM来学习不同尺度表示的语义一致性,并且一旦模型进行了优化,就可以丢弃。因此,在测试阶段,我们只需要为所有模态预测维护一个变压器,这可以很好地平衡模型的易用性和简单性。为了证明所提出的方法的有效性,我们对两个医学图像分割方案进行了实验:(1)心脏结构分割,(2)腹部多器官分割。广泛的结果表明,所提出的方法的表现优于最新方法,甚至通过极有限的训练样本(例如1或3个注释的CT或MRI图像)以一种特定的方式来实现竞争性能。
translated by 谷歌翻译
域自适应文本分类对于大规模预处理的语言模型来说是一个具有挑战性的问题,因为它们通常需要昂贵的额外标记数据来适应新域。现有作品通常无法利用跨域单词之间的隐式关系。在本文中,我们提出了一种新的方法,称为结构化知识(DASK)的域适应性,以通过利用单词级别的语义关系来增强域的适应性。 Dask首先构建知识图,以捕获目标域中的枢轴项(独立域单词)和非居式项之间的关系。然后在训练期间,DASK注入与源域文本的枢轴相关知识图信息。对于下游任务,这些注入知识的文本被馈入能够处理知识注入文本数据的BERT变体。多亏了知识注入,我们的模型根据与枢轴的关系学习了非客者的域不变特征。 DASK通过在使用伪标签训练期间通过候选枢轴的极性得分动态推断出具有域不变行为的枢轴。我们在各种跨域情绪分类任务上验证了DASK,并观察到20种不同领域对的基准的绝对性能提高了2.9%。代码将在https://github.com/hikaru-nara/dask上提供。
translated by 谷歌翻译